<!DOCTYPE html>
<html lang="en">
<head>
	<meta charset="UTF-8">
	<meta http-equiv="X-UA-Compatible" content="IE=edge">
    <meta name="viewport" content="width=device-width, initial-scale=1">
	<title>Ngrams 在复合词的应用 | Elasticsearch: 权威指南 | Elastic</title>
    <!-- Give IE8 a fighting chance -->
    <!--[if lt IE 9]>
    <script src="https://oss.maxcdn.com/html5shiv/3.7.2/html5shiv.min.js"></script>
    <script src="https://oss.maxcdn.com/respond/1.4.2/respond.min.js"></script>
    <![endif]-->
	<link rel="stylesheet" type="text/css" href="../static/styles.css" />
</head>
<body>
<div class="main-container">
    <section id="content">
        
        <div class="content-wrapper">
            <section id="guide" lang="zh_cn">
                <div class="container">
                    <div class="row">
                        <div class="col-xs-12 col-sm-8 col-md-8 guide-section">
                            <div style="color:gray; word-break: break-all; font-size:12px;">原文地址: <a href="https://www.elastic.co/guide/cn/elasticsearch/guide/current/ngrams-compound-words.html" rel="nofollow">https://www.elastic.co/guide/cn/elasticsearch/guide/current/ngrams-compound-words.html</a>, 版权归 www.elastic.co 所有<br/>
                            英文版地址: <a href="https://www.elastic.co/guide/en/elasticsearch/guide/current/ngrams-compound-words.html" rel="nofollow">https://www.elastic.co/guide/en/elasticsearch/guide/current/ngrams-compound-words.html</a>
                            </div>
                        <!-- start body -->
                  <div class="page_header">
<b>请注意:</b><br>本书基于 Elasticsearch 2.x 版本，有些内容可能已经过时。
</div>
<div id="content">
<div class="breadcrumbs">
<span class="breadcrumb-link"><a href="index.html">Elasticsearch: 权威指南</a></span>
»
<span class="breadcrumb-link"><a href="search-in-depth.html">深入搜索</a></span>
»
<span class="breadcrumb-link"><a href="partial-matching.html">部分匹配</a></span>
»
<span class="breadcrumb-node">Ngrams 在复合词的应用</span>
</div>
<div class="navheader">
<span class="prev">
<a href="_index_time_search_as_you_type.html">« 索引时输入即搜索</a>
</span>
<span class="next">
<a href="controlling-relevance.html">控制相关度 »</a>
</span>
</div>
<div class="section">
<div class="titlepage"><div><div>
<h2 class="title">
<a id="ngrams-compound-words"></a>Ngrams 在复合词的应用<a class="edit_me edit_me_private" rel="nofollow" title="Editing on GitHub is available to Elastic" href="https://github.com/elasticsearch-cn/elasticsearch-definitive-guide/edit/cn/130_Partial_Matching/40_Compound_words.asciidoc">edit</a>
</h2>
</div></div></div>
<p>最后，来看看 n-gram 是如何应用于搜索复合词的语言中的。德语的特点是它可以将许多小词组合成一个庞大的复合词以表达它准确或复杂的意义。例如：</p>
<div class="variablelist">
<dl class="variablelist">
<dt>
<span class="term">
<em>Aussprachewörterbuch</em>
</span>
</dt>
<dd>
发音字典（Pronunciation dictionary）
</dd>
<dt>
<span class="term">
<em>Militärgeschichte</em>
</span>
</dt>
<dd>
战争史（Military history）
</dd>
<dt>
<span class="term">
<em>Weißkopfseeadler</em>
</span>
</dt>
<dd>
秃鹰（White-headed sea eagle, or bald eagle）
</dd>
<dt>
<span class="term">
<em>Weltgesundheitsorganisation</em>
</span>
</dt>
<dd>
世界卫生组织（World Health Organization）
</dd>
<dt>
<span class="term">
<em>Rindfleischetikettierungsüberwachungsaufgabenübertragungsgesetz</em>
</span>
</dt>
<dd>
法案考虑代理监管牛和牛肉的标记的职责（The law concerning the delegation of duties for the supervision of cattle marking and the labeling of beef）
</dd>
</dl>
</div>
<p>有些人希望在搜索 “Wörterbuch”（字典）的时候，能在结果中看到 “Aussprachewörtebuch”（发音字典）。同样，搜索 “Adler”（鹰）的时候，能将 “Weißkopfseeadler”（秃鹰）包括在结果中。</p>
<p>处理这种语言的一种方式可以用
<a href="https://www.elastic.co/guide/en/elasticsearch/reference/5.6/analysis-compound-word-tokenfilter.html" class="ulink" target="_top">组合词 token 过滤器（compound word token filter）</a>
将复合词拆分成各自部分，但这种方式的结果质量依赖于组合词字典的质量。</p>
<p>另一种方式就是将所有的词用 n-gram 进行处理，然后搜索任何匹配的片段——能匹配的片段越多，文档的相关度越大。</p>
<p>假设某个 n-gram 是一个词上的滑动窗口，那么任何长度的 n-gram 都可以遍历这个词。我们既希望选择足够长的值让拆分的词项具有意义，又不至于因为太长而生成过多的唯一词。一个长度为 3 的 <em>trigram</em> 可能是一个不错的开始：</p>
<div class="pre_wrapper lang-sense">
<pre class="programlisting prettyprint lang-sense">PUT /my_index
{
    "settings": {
        "analysis": {
            "filter": {
                "trigrams_filter": {
                    "type":     "ngram",
                    "min_gram": 3,
                    "max_gram": 3
                }
            },
            "analyzer": {
                "trigrams": {
                    "type":      "custom",
                    "tokenizer": "standard",
                    "filter":   [
                        "lowercase",
                        "trigrams_filter"
                    ]
                }
            }
        }
    },
    "mappings": {
        "my_type": {
            "properties": {
                "text": {
                    "type":     "string",
                    "analyzer": "trigrams" <a id="CO100-1"></a><i class="conum" data-value="1"></i>
                }
            }
        }
    }
}</pre>
</div>
<div class="sense_widget" data-snippet="snippets/130_Partial_Matching/40_Compound_words.json"></div>
<div class="calloutlist">
<table border="0" summary="Callout list">
<tr>
<td align="left" valign="top" width="5%">
<p><a href="#CO100-1"><i class="conum" data-value="1"></i></a></p>
</td>
<td align="left" valign="top">
<p><code class="literal">text</code> 字段用 <code class="literal">trigrams</code> 分析器索引它的内容，这里 n-gram 的长度是 3 。</p>
</td>
</tr>
</table>
</div>
<p>使用 <code class="literal">analyze</code> API 测试 trigram 分析器：</p>
<div class="pre_wrapper lang-sense">
<pre class="programlisting prettyprint lang-sense">GET /my_index/_analyze?analyzer=trigrams
Weißkopfseeadler</pre>
</div>
<div class="sense_widget" data-snippet="snippets/130_Partial_Matching/40_Compound_words.json"></div>
<p>返回以下词项：</p>
<pre class="literallayout">wei, eiß, ißk, ßko, kop, opf, pfs, fse, see, eea,ead, adl, dle, ler</pre>

<p>索引前述示例中的复合词来测试：</p>
<div class="pre_wrapper lang-sense">
<pre class="programlisting prettyprint lang-sense">POST /my_index/my_type/_bulk
{ "index": { "_id": 1 }}
{ "text": "Aussprachewörterbuch" }
{ "index": { "_id": 2 }}
{ "text": "Militärgeschichte" }
{ "index": { "_id": 3 }}
{ "text": "Weißkopfseeadler" }
{ "index": { "_id": 4 }}
{ "text": "Weltgesundheitsorganisation" }
{ "index": { "_id": 5 }}
{ "text": "Rindfleischetikettierungsüberwachungsaufgabenübertragungsgesetz" }</pre>
</div>
<div class="sense_widget" data-snippet="snippets/130_Partial_Matching/40_Compound_words.json"></div>
<p>“Adler”（鹰）的搜索转化为查询三个词 <code class="literal">adl</code> 、 <code class="literal">dle</code> 和 <code class="literal">ler</code> ：</p>
<div class="pre_wrapper lang-sense">
<pre class="programlisting prettyprint lang-sense">GET /my_index/my_type/_search
{
    "query": {
        "match": {
            "text": "Adler"
        }
    }
}</pre>
</div>
<div class="sense_widget" data-snippet="snippets/130_Partial_Matching/40_Compound_words.json"></div>
<p>正好与 “Weißkopfsee-<em>adler</em>” 相匹配：</p>
<div class="pre_wrapper lang-sense">
<pre class="programlisting prettyprint lang-sense">{
  "hits": [
     {
        "_id": "3",
        "_score": 3.3191128,
        "_source": {
           "text": "Weißkopfseeadler"
        }
     }
  ]
}</pre>
</div>
<div class="sense_widget" data-snippet="snippets/130_Partial_Matching/40_Compound_words.json"></div>
<p>类似查询 “Gesundheit”（健康）可以与 “Welt-gesundheit-sorganisation” 匹配，同时也能与 “Militär-<em>ges</em>-chichte” 和 “Rindfleischetikettierungsüberwachungsaufgabenübertragungs-<em>ges</em>-etz” 匹配，因为它们同时都有 trigram 生成的 <code class="literal">ges</code> ：</p>
<p>使用合适的 <code class="literal">minimum_should_match</code> 可以将这些奇怪的结果排除，只有当 trigram 最少匹配数满足要求时，文档才能被认为是匹配的：</p>
<div class="pre_wrapper lang-sense">
<pre class="programlisting prettyprint lang-sense">GET /my_index/my_type/_search
{
    "query": {
        "match": {
            "text": {
                "query":                "Gesundheit",
                "minimum_should_match": "80%"
            }
        }
    }
}</pre>
</div>
<div class="sense_widget" data-snippet="snippets/130_Partial_Matching/40_Compound_words.json"></div>
<p>这有点像全文搜索中霰弹枪式的策略，可能会导致倒排索引内容变多，尽管如此，在索引具有很多复合词的语言，或词之间没有空格的语言（如：泰语）时，它仍不失为一种通用且有效的方法。</p>
<p>这种技术可以用来提升 <em>召回率</em> ——搜索结果中相关的文档数。它通常会与其他技术一起使用，例如 shingles（参见 <a class="xref" href="shingles.html" title="寻找相关词">shingles 瓦片词</a> ），以提高精度和每个文档的相关度评分。</p>
</div>
<div class="navfooter">
<span class="prev">
<a href="_index_time_search_as_you_type.html">« 索引时输入即搜索</a>
</span>
<span class="next">
<a href="controlling-relevance.html">控制相关度 »</a>
</span>
</div>
</div>

                  <!-- end body -->
                        </div>
                        <div class="col-xs-12 col-sm-4 col-md-4" id="right_col">
                        
                        </div>
                    </div>
                </div>
            </section>
        </div>
    </section>
</div>
<script src="../static/cn.js"></script>
</body>
</html>